https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn

1 Partie 1

Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.

1.1 Analyse variation

Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine

Figure 1.1: Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine

Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine

Figure 1.2: Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine

Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine

Figure 1.3: Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine

On peut voir sur les histogrammes que le type de donnĆ©es possĆ©dant le plus de variabilitĆ© est le type protĆ©ine. En effet, sa variabilitĆ© est comprise entre -100 et 250, mĆŖme si on peut observer qu’elle est comme les autres centrĆ©e vers 0.

1.2 Nettoyage des donnƩes

En supprimant les données les plus variantes (\(\lvert{C_v}\rvert \geq 0.15\)), il ne reste que 142 protéines, 174 gènes et 82 miRNA.

1.3 GĆØne le plus variable

Le gĆØne avec le plus grand coefficient de variance de notre jeu de donnĆ©es est PLCD4. La protĆ©ine codĆ©e par ce gĆØne peut jouer un rĆ“le dans la croissance et la prolifĆ©ration cellulaire. Son expression peut donc notamment ĆŖtre un marqueur de cancer. PLCD4 est situĆ© sur le chromosome 2, et sa longueur est de 30749 nuclĆ©otides. La protĆ©ine correspondant Ć  ce gĆØne est Q9BRC7, d’une longueur de 762 nuclĆ©otides, mais n’est pas contenue dans notre jeu de donnĆ©es.

2 Partie 2

2.1 1. Single-omic: l’ACP avec mixOmics

## Eigenvalues for the first 10 principal components, see object$sdev^2: 
##         PC1         PC2         PC3         PC4         PC5         PC6 
## 4601.980533   46.705472   21.519114   12.661752    9.796326    8.634070 
##         PC7         PC8         PC9        PC10 
##    7.445820    6.180146    5.062428    4.265798 
## 
## Proportion of explained variance for the first 10 principal components, see object$explained_variance: 
##         PC1         PC2         PC3         PC4         PC5         PC6 
## 0.956078087 0.009703231 0.004470674 0.002630525 0.002035222 0.001793759 
##         PC7         PC8         PC9        PC10 
## 0.001546896 0.001283948 0.001051738 0.000886235 
## 
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 0.9560781 0.9657813 0.9702520 0.9728825 0.9749177 0.9767115 0.9782584 0.9795423 
##       PC9      PC10 
## 0.9805941 0.9814803 
## 
##  Other available components: 
##  -------------------- 
##  loading vectors: see object$rotation
Expliquation de la variabilitƩ par les diffƩrente composante - avec center & scale false

Figure 2.1: Expliquation de la variabilitƩ par les diffƩrente composante - avec center & scale false

## 
## Call:
##  tune.pca(X = mrna.c, ncomp = 50, center = F, scale = F) 
## 
##  for all principal components, see object$sdev, object$explained_variance and object$cum.var

Au vu de l’histogramme:

  • Une seule composante explique la majoritĆ© de la variabilitĆ©.
  • Il peut ĆŖtre intĆ©ressant de centrer-rĆ©duire les donnĆ©es pour mieux dĆ©gager la variabilitĆ© des donnĆ©es.
## Eigenvalues for the first 10 principal components, see object$sdev^2: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 33.720079 23.308702  9.887708  8.601462  7.448849  5.701675  4.198577  3.765421 
##       PC9      PC10 
##  3.265814  3.045500 
## 
## Proportion of explained variance for the first 10 principal components, see object$explained_variance: 
##        PC1        PC2        PC3        PC4        PC5        PC6        PC7 
## 0.19379356 0.13395806 0.05682591 0.04943369 0.04280948 0.03276825 0.02412975 
##        PC8        PC9       PC10 
## 0.02164035 0.01876904 0.01750288 
## 
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590 
##       PC9      PC10 
## 0.5741281 0.5916310 
## 
##  Other available components: 
##  -------------------- 
##  loading vectors: see object$rotation
Expliquation de la variabilitƩ par les diffƩrente composante - avec center & scale true

Figure 2.2: Expliquation de la variabilitƩ par les diffƩrente composante - avec center & scale true

Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.

PCA des gĆØnes

Figure 2.3: PCA des gĆØnes

Les dix variables contribuant le plus Ć  l’axe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques reprĆ©sentant les variables sont actuellement trĆØs difficilement lisibles, on doit donc afficher les contributions des variables aux composantes Ć  l’aide d’une commande.

PIndividus selon composantes 1-2 pcas

Figure 2.4: PIndividus selon composantes 1-2 pcas

On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.

Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.

Spase PCA des gĆØnes

Figure 2.5: Spase PCA des gĆØnes

2.2 2.1 Projection on Latent Structures

Comparaisons des composantes 1 et 2 avec les groupes
 d'echantillons affiches en couleur

Figure 2.6: Comparaisons des composantes 1 et 2 avec les groupes d’echantillons affiches en couleur

Arrow plot des composantes 1 et 3

Figure 2.7: Arrow plot des composantes 1 et 3

Les variables retenues pour la troisiĆØme composante sont C1QB, Caspase.7_cleavedD198.

Heatmap ...

Figure 2.8: Heatmap …

Network ...

Figure 2.9: Network …

Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).

2.3 2.2 Multiblock Projection on Latent Structures

Block pls ...

Figure 2.10: Block pls …

Block pls ...

Figure 2.11: Block pls …

Block pls ...

Figure 2.12: Block pls …

Block spls ...

Figure 2.13: Block spls …

Block spls ...

Figure 2.14: Block spls …

Block spls ...

Figure 2.15: Block spls …

Les variables sélectionnées sur la première composante sont:

  • Mrna: CCNA2, ZNF552, FUT8, ASPM, C4orf34, KDM4B, LRIG1, SLC43A3, TTC39A, PREX1
  • ProtĆ©ine: Cyclin_B1, Cyclin_E1, ER.alpha, GATA3, ASNS, AR, JNK2, CDK1, Chk2
  • Mirna: hsa.mir.17, hsa.mir.20a, hsa.mir.130b, hsa.mir.505, hsa.mir.590, hsa.mir.106a, hsa.mir.9.2

2.4 3. Analyse supervisƩe : (s)PLS-DA

Individus selon composantes 1-2 PLS-DA

Figure 2.16: Individus selon composantes 1-2 PLS-DA

Par rapport Ć  la PCA, on peut considĆ©rer que la PLS-DA permet de mieux retrouver nos trois groupes d’échantillons sur ce graphique par rapport aux deux premiĆØres composantes principales. En effet, les trois groupes sont ici clairement distincts dans l’espace du graphique, et les frontiĆØres entre groupes sont bien plus marquĆ©es. Il semblerait donc que la variabilitĆ© des donnĆ©es calculĆ©e par la PLS-DA permet de mieux expliquer les diffĆ©rences gĆ©nĆ©tiques entre les groupes de nos Ć©chantillons.

2.5 4. Analyse supervisƩe : block-(s)PLS-DA

Block splsda all

Figure 2.17: Block splsda all

Block splsda après sélection

Figure 2.18: Block splsda après sélection

Circosplot

Figure 2.19: Circosplot